к Звонки: все про звук; или Как 
добиться ен качества_ 
\ передачи голоса через интернет 
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2022 \ | 


Алексеи Шпагин 


(“ Руководитель команды бэкенда 
ВК Звонки 


4 10 лет работы в УадР-телефонии 
и видеозвонках 


(-=) Бэкграунд — разработчик С++ 


‹о> В руководстве командами 
Д года 


\/К Звонки 


Бесплатные звонки без ограничений по времени 
и количеству участников. а ыы 


[к] [© ворят Маша Щеглова, Стас Головин и ещё 2 


Вакансии Проекты Новости 


<Я Для работы и учёбы = ис И, 
| ‚| 
Демонстрация экрана в АК, трансляция, у : ании 
планирование и запись. = 
| социальная 
Е ызыдЕя Е СНГ. Наша 
© Управление звонками Е. с ый сарвиеы 
Зал ожидания, управление микрофонами, функция ы - я о 
«Поднять руку» и другие возможности модерации. еее 
==] Технологичность | « аи й о 
: Л . . | пользователей 


Интеллектуальное шумоподавление, в месяц 
собственная АВ-технология замены фона. 


. ь , 
р ) $ 
0 МЛ Л | й АНС Говорят Спотти, Никита М.^- ( Никита № стает. 


пользователей общаются в УК Звонках ежемесячно 


\/К Звонки 


звонков В День 


Из чего Оценка качества 
складывается звука. Принципы 
качество звука? и инструменты 


Проблемы при Применение 
передаче звука, инструментов 
и как мы их измерения 


решаем качества звука 


Видеозвонки — 
замена живым 
встречам 


. При встрече офлаин все отлично 
друг друга видят и слышат 


. Система видеозвонков вносит 
искажения в передачу звука 


. Если искажения сильные, общаться 
некомфортно, и встреча перестает 
быть похожа на встречу живьем 


Требования 

к передаче 
звука в системе 
видеозвонков 


В порядке убывания к ритичности 


Непрерывность 
звукового 
потока 


Минимальная |а*епсу 


© (С 


Сказал Услышал 


Задержка 


Отсутствие 
артефактов в звуке 


» Постоянный треск 


» Периодические щелчки 
в произвольное время 


е КЛИППИНГ 


Слышимый диапазон 


Частота 


20 ГЦ 3,4 кГц КГЦ 1А кГц 20 кГц 


Что же будем оценивать? 


Не звук абстрактно 
и не качество 
звукозаписи — а речь: 


е Степень искажений 
» Разборчивость 


» Комфортность восприятия 


МО$ - Меап 
Оршоп $соге 


МО$ 


5 


д 


3 


2 


1 


Качество 


Жххжх 


ЖКХ 


ЖАК 


ЖЖ 


ЖоСОХ 


Усилия при 
прослушивании 


МО$ - Меап 
Оршоп $соге 


Усилия при 
прослушивании 


МО5, равный 5 — 
недостижим 


Кодек 


С.711 


О. 28 


(5.729 


ОРУ» 


Мах. МО$ 


4,4 


4,5 


3,92 


4,5 


Методики 

и алгоритмы 
измерения 
качества речи 


Ориентируемся 
на восприятие 
речи человеком 


. Алгоритмы измерения качества речи 
предсказывают, как бы живой человек 
оценил заданный звуковой фрагмент 


» Оценка МО$ показывает то, как 
человек воспринимает фрагмент речи 


Методика оценки качества речи 
на основе референса 


Референсный Искаженный 
сигнал сигнал Алгоритм 
Звонок ААА 


оценки 


Оценка 
МО$ 


Безреференсная методика оценки 
качества речи 


Референсный Искаженный 
сигнал сигнал Алгоритм 
Звонок ыы 


оценки 


Оценка 
МО$ 


Методики оценки качества речи 


Мы пользуемся в \/К Звонках 


\$О ОЕ 


Ореп зоигсе аналог РОГОА 


№50 А 


Безреференсная методика. 
Ореп $оигсе 


Мы не пользуемся 


РОЕОА 


Коммерческое решение 


АОчА 
Перспективное решение, но пока 
проигрывает РОГОА 


РЕ$ © 


Устаревшее коммерческое решение 


Стенд для измерения качества голоса в \К Звонках 


1 плечо 1 плечо 

Запуск Запуск звонка звонка 

О —— —— — —— 
С —— =— =——— =—— 
МО$ МО$ 2 плечо 2 плечо 


звонка Интернет звонка 


Итого 
про оценку 
качества речи 


Измеряем качество голоса, речи 


Используем метрику МОЗ от 1 до 5. 


МО$ не бывает равен 5 


Предсказание реакции человека на 
звуковой фрагмент 


Референсные и безреференсные подходы 


[римеры 


Виды проблем при 
передаче голоса 
через Интернет 


. Проблемы, обусловленные 
особенностью передачи 
данных по ТСРЛР-сетям 


. Проблемы акустического 
характера 


Проблемы, 
обусловленные 
особенностью 
передачи 
данных по сети 


Принцип передачи голоса по сети 


(>) 
И С Х ремни 


Пакеты могут: 

‚ теряться 

. «дрожать» (ЛЁег) 
задерживаться (аеау) 


. меняться местами (геогаейпд) 


*Проблемы проявляются сильнее на мобильном интернете, при проводном подключении - слабее 


ЛЕег ВиРег 


< © © 


© 


Компенсирует «дрожание» 
Выравнивает трафик 


Может «подождать» 
недошедший вовремя пакет 


Больше УЩег ВиНег — 
больше |аепсу 


В среднем -100 — 200мс 


МАСК — Медай\уе АскКпомЛлеаачтепт 


Передатчик Приемник 


(/\ Позволяет перезапросить 
потерянный пакет 


(^ Хорошо работает на коротких ВТТ 


(/\ При длинных ВТТ не имеет смысла 


ЕЕС — Рогмага Етггог Соггесй оп 


‚ Кодек добавляет в битстрим 


дополнительную информацию для Условия 
восстановления 
. Хорошо работает на больших КТТ 105$ = 5%, 
ЕС = Та|зе 
105$ = 5%, 


ЕЕС = *гие 


Средний МО$ 


3,94 


4,19 


КЕО — Кедупаапсу 
(КТР Рауюоаа Гог Кедипаап+ Ацчато Ра*а) 


» Избыточность на уровне КТР-пакетов Условия Средний МО$ 


. В один КТР-пакет помещается 2 или 
более аудиокадров 105$ = 10%, авау = 


200 тз, КЕО = Та|зе —- 
» Разница с ЕЕС: избыточная 
информация не в битстриме, а 
объединяется несколько битстримов 105$ = 10%, авау = д.14 


200 т$, КЕШ = гие 


Р-С — РаскЕТ 1о$$ Сопсеа|теп* 


Г |. Аи 1 


АлДЛ: ВЫ, ^, 


Проблемы 
акустического 
характера 


тг 
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> 
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Ф 
> 
ии 
5 
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т 
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Источники шума 


Шумоподавление 


Условия Средний МО$ 


И | Референс без шумов 3,91 


Референс + шумы - 100 
без шумодава 
Референс - шумы + 


2,79 
шумоподавление 


\/АБ — \/отсе Асиуку Ваесйоп 


Условия 
‚ Вставляет тишину там, 
где нет голоса \АВ выключен 


» Собственное решение 
на базе МЕ \АО включен 


Средний МО$ 


3,81 


3,67 


УМК — опа! Фо Мо!зе КаЧо 


. Определяет, присутствует ли шум 
в звуке от участника звонка 


» Если есть шум, то включаем шумодав, 
если нет, то не включаем, чтобы 
сохранить качество голоса 


» Учимся оценивать качество работы МВ 


Условия Средний МО$ 


\МАВ — включен 


5МВ — выключен 3,67 


\/АБ и МК - оба 


3,46 
включены 


Возникновение эха 


11° 
в о \ 


Пользователь 1 Пользователь 2 


\ / 


» Используем эходав \М/ервкТС 


Снижаем громкость динамиков, 


Эхопода влениеа если пользователь начинает 


говорить 


. Проблема адоцЫе так 


Проблемы, 
с которыми 
мы сталкиваемся 


© ЗМВ - Запа {о Мо!зе Вайо 


о Эхоподавление 


[4 лиег ВиКег 


[5 РЕС — РаскЕ{ 10о$$ Сопсеате 
[6 МАСК — Медацуе Аскпомеадтеги 


@&) ЕЕС — Еогмага Еггог СоггесЧоп 


[3 КЕШ — ВКедупадаптсу 


Варианты 
использования 
джобы для 
оценки качества 


» На аеу-окружении при разработке фичи 
» На регрессии перед релизом 

» Сравниваем разные версии продукта 

. Оцениваем эффект от новой фичи 


» Мониторим продакшн 


= _@ ое $ ВИ _ВИ аа аз у 1 С Заесё А! 
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Мониторинг качества голоса на продакшене 


Обратная связь 2 
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Г о® Алексей Шпалин, | 
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